已经开发了几种事后解释方法来解释预训练的黑盒神经网络。但是,研究工作的差距仍存在差距,以设计固有解释的神经网络。在本文中,我们利用了最近提出的依据实例的事后因果解释方法,使现有的变压器体系结构固有地解释。经过培训后,我们的模型以在给定实例的输入空间中的顶部$ k $区域的形式提供了解释,从而有助于其决策。我们使用三个图像数据集评估了有关二进制分类任务的方法:MNIST,FMNIST和CIFAR。我们的结果表明,与基于因果关系的事后解释器模型相比,我们本来可以解释的模型可以实现更好的解释性结果,同时消除了训练单独的解释器模型的需求。我们的代码可在https://github.com/mvrl/cat-xplain上找到。
translated by 谷歌翻译